All rights reversed

MP3 Workshop

Vortrag: Andreas Bogk <>

Bericht: Chris Vogel <c.vogel@link-goe.de>

Der Workshop fⁿhrte in die Technik der Komprimierung mittels MPEG ein und mⁿndete in eine Diskussion um die Auswirkungen der Technologie auf die zukⁿnftige Entwicklung der Vermarktung von Musik im und au▀erhalb des Internet.

Die Technik

Musik besteht aus Schallwellen, die mittels eines Mikrofons in elektrische Schwingungen umgewandelt werden k÷nnen. Um diese analogen Signale, die auf einem Diagramm der SignalstΣrke, abgetragen gegen die Zeit, komplizierte Wellen ergeben, digital speichern zu k÷nnen, werden die analogen Axen des Diagramms in kleine AbstΣnde unterteilt (quantisiert).

Die Unterteilung der Zeitachse ergibt eine zeitliche Aufl÷sung, die mit der Sampling-Rate angegeben wird. Die Sampling-Rate gibt in Samples pro Sekunde an, wie hΣufig ein Me▀wert (der Signalpegel) pro Sekunde erfa▀t wird.

Die Quantisierung der Amplitude (SignalstΣrke) ergibt eine maximale Anzahl von Werten, in die die zu digitalisierenden Signalpegel einsortiert werden mⁿssen. Diese Anzahl der m÷glichen Werte ergibt die Audioaufl÷sung - meist angegeben in Bit.

Auf einer handelsⁿblichen Musik-CD wird z.B. eine Samplingrate von 44kHz (also 44000 Me▀werte pro Sekunde) und eine Audioaufl÷sung von 16 Bit (65536 m÷gliche Signalpegel) verwendet.

Speist man die auf diesem Weg erhaltenen Daten in ein normales Komprimierungsprogramm (z.B. ARJ oder ZIP) ein, so stellt man fest, da▀ die Komprimierung nur sehr gering ist. Solche Komprimierungsverfahren versuchen RegelmΣ▀igkeiten in den zu komprimierenden Daten zu finden, die in digitalisierten Audiodaten kaum vorkommen.

Die erste Idee k÷nnte nun sein, einfach die Audioaufl÷sung zu verringern und somit Daten einzusparen. Leider fⁿhrt dies zu einem QualitΣtsverlust: Auf je weniger m÷gliche Werte die analogen Daten abgebildet werden, um so gr÷▀er werden die dabei auftretenden Rundungsfehler. Diese Rundungsfehler erh÷hen ma▀geblich den Rauschanteil. Fⁿr eine m÷glichst verlustfreie Komprimierung von Audio-Daten ist dieses Verfahren damit unbefriedigend.

Biologen gehen davon aus, da▀ vom menschlichen Ohr zum Gehirn ein Datenstrom von ca. 2000-3000 bit/s flie▀t. Die SchΣtzung geht zurⁿck auf die Annahme, da▀ Informationen mit ca. 60-100km/h in den Nerven ⁿbertragen werden und der Nervenstrang vom Ohr zum Gehirn keinen gr÷▀ere Datenmenge transportieren kann. Eine CD beinhaltet einen Datenstrom von ca. 1.000.000 bit/s. Im Gehirn kommen von den Informationen, die auf einer Audio-CD gespeichert sind, also nur ca. 0,25% an.

Die Psychoakustik beschΣftigt sich mit der Frage, welcher Anteil der Informationen, die als Schallwellen auf unser Ohr treffen, tatsΣchlich im Gehirn ankommen. Als Antwort auf diese Frage wurde bisher keine einheitliche Formel gefunden. Verschiedene Forschungsinstitutionen haben in sehr vielen Versuchsreihen mit Testh÷rern herausgefunden, was in Audiosignalen weggelassen werden kann, ohne da▀ ein Unterschied fⁿr die Testpersonen h÷rbar war.

Das Ohr ist trΣge, und diese TrΣgheit sorgt dafⁿr, da▀ leise T÷ne nach einem lauten Ton nur sehr schlecht oder gar nicht wahrgenommen werden - ebenso wie vorhergehende leise T÷ne fⁿr einen kⁿrzeren Zeitraum ⁿberschattet werden. ─hnliches gilt fⁿr einen intensiven Ton auf einer Frequenz, der T÷ne auf unmittelbaren Nachbarfrequenzen ⁿberdeckt. Hohe T÷ne werden eher wahrgenommen als tiefe T÷ne.

In Hinblick auf diese Erkenntnisse wurden empirische Daten ausgewertet und genaue mathematische Regeln erstellt, die beschreiben, welche Informationen im Audiosignal eingespart werden k÷nnen, ohne da▀ die QualitΣt fⁿr den H÷rer merklich sinkt.

Technisch wird hierfⁿr das Audiosignal in 32 FrequenzbΣnder geteilt (z.B. 100Hz, 200Hz, ... , 2kHz, 4kHz...). Dabei teilt sich ohne Komprimierung die Anzahl der m÷glichen Werte (Audioaufl÷sung) durch die Anzahl der FrequenzbΣnder, und jedes Frequenzband erhΣlt einen eigenen, entsprechend kleineren Wertebereich.

Fⁿr die Komprimierung nach den psychoakustischen Kriterien wird nun die Anzahl der m÷glichen Werte fⁿr durch benachbarte laute Frequenzen ⁿberdeckte Frequenzen gesenkt, da diese Frequenzen schlechter wahrgenommen werden. Dadurch k÷nnen Daten eingespart werden.

Ein Σhnliches Verfahren wird auf der Zeitachse des Audiosignals verwendet, um Signalen, die einem sehr viel lauterem Signal vorausgehen oder folgen, ebenfalls einen kleineren Wertebereich zuzuweisen.

Die entstehenden Ungenauigkeiten (Rauschanteil) bei der verlustbehafteten Komprimierung werden somit auf Signalanteile verteilt, die ⁿber den H÷rapparat das Gehirn nicht oder nur sehr schwach erreichen. Der QualitΣtsverlust ist im VerhΣltnis zur eingesparten Datenmenge sehr gering. Bei einer Komprimierung von 1:12 ist die QualitΣt fⁿr die Wiedergabe von Musik mit der QualitΣt von Radio vergleichbar.

In der Weiterentwicklung des umrissenen Verfahrens soll 'guessing' - der Versuch die Werte eines Folge-Samples zu raten - zum Einsatz kommen und die Komprimierungsrate nocheinmal erh÷hen. Auch hierfⁿr werden Versuchsreihen mit Testh÷rern durchgefⁿhrt, die zeigen sollen, bis zu welchem Ma▀ das Verfahren geeignet ist, und an welchen Stellen die Abweichung in den geratenen Samples durch Checksummen korrigiert werden mu▀.

Die technischen Verfahren zur Dekomprimierung (!) solcher Datenstr÷me wurden in ISO-Normen von der Motion Picture Encoding Group (MPEG) normiert. Zur Norm geh÷ren nicht die Kodierungsverfahren, deren QualitΣt ma▀geblich von der Forschungsarbeit der einzelnen Anbieter auf dem Gebiet der Psychoakustik abhΣngt. In den Normen der MPEG wird jedoch - wie der Name vermuten lΣ▀t - nicht nur Audiodekomprimierung festgelegt, sondern auch die Verfahren zur Videodekomprimierung. Zielsetzung der Gruppe ist es, Normen festzulegen, nach denen Bild und Ton von digitalen DatentrΣgern (CD, DVD) oder aus digitalen Datenstr÷men (Fernsehen, Internet) dekodiert und wiedergegeben werden k÷nnen.

Der erste verabschiedete Standard war MPEG1. In MPEG1 (ISO11172) wurde festgeschrieben, wie von einer normalen CD mit 1-facher Abspielgeschwindigkeit Video und Audio wiedergegeben werden kann. Die Norm teilt den Datenstrom in drei Layer: Auf Layer 1 werden Daten fⁿr die Zusammensetzung von Audio und Video Datenstrom transportiert (System Stream), auf Layer 2 werden die Video-Daten als halbes PAL-Bild ⁿbertragen und auf Layer 3 letztendlich die Audio-Daten.

Da MPEG1 fⁿr die CD entwickelt wurde, sind flexible Bandbreiten fⁿr die einzelnen KanΣle nicht vorgesehen.

Das technische Verfahren zur Dekomprimierung von Audiodaten im anfΣnglich beschriebenen Format findet sich in der Nachfolgenorm MPEG2 Layer 3. Ebenso wie bei MPEG1 ist MPEG2 (ISO13848) in drei Layer fⁿr Steuerdaten, Video und Audio getrennt. Mittels der neuen Norm k÷nnen Datenstr÷me mit beliebiger QualitΣt dekodiert werden und die Verfahren wurden optimiert und erweitert um eine ▄bertragung des Datenstroms ⁿber eine verlustbehaftete Verbindung (z.B. einen Fernsehkanal) zu unterstⁿtzen. In einer Erweiterung (MPEG2 Layer3 ACR), die bisher noch nicht zum Einsatz kommt, ist schon festgeschrieben, wie mehrere AudiokanΣle fⁿr z.B. Surround Sound ⁿbertragen werden.

Das Verfahren zur Komprimierung von Videosignalen funktioniert Σhnlich wie die Komprimierung der Audiodaten (jedoch ist in der Norm auch fⁿr Video nur die Dekomprimierung fⁿr Video genormt): Das Videobild wird in Quadrate von 8x8 Pixeln zerteilt. Betrachtet man die 64 Pixel eines solchen Ausschnitts aneinandergereiht und fΣhrt mit einer konstanten Geschwindigkeit an ihnen entlang, so ergibt sich eine Signal aus Helligkeitwerten, das sich genauso wie ein Audiosignal in Samples zerlegen lΣ▀t. Diese Samples k÷nnen wieder in FrequenzbΣnder geteilt und nach Σhnlichen Kriterien wie das Audiosignal komprimiert werden. Die Komprimierung der Videobilder entspricht technisch dem JPEG-Verfahren fⁿr Einzelbilder.

ZusΣtzlich wird betrachtet, ob sich ein bestimmter Ausschnitt aus 8x8 Pixeln im Folgebild an einer anderen Stelle wiedergefunden werden kann und somit nur dessen Bewegungsvektor und nicht die vollstΣndige Bildinformation ⁿbertragen werden mu▀. Ein Fernsehbild lΣ▀t sich so komprimiert in einen 6MBit Datenstrom verpacken.

Konkurrierende Verfahren wie z.B. RealAudio, RealVideo oder LiquidAudio weichen vom technischen Verfahren von MPEG2 nur in der Umsetzung ab. Die Grundlagen sind dieselben. Es lΣ▀t sich nicht feststellen, da▀ eines dieser Verfahren qualitativ besser wΣre als die normierten.

Fⁿr die Komprimierung von Audiodaten nach MPEG2 Layer 3 in Echtzeit wird ein PentiumII 300MHz ben÷tigt. Eine gⁿnstige Hardwarel÷sung ist von Thomson fⁿr ca. 300,- DM angekⁿndigt. Zum Abspielen reicht hingegen jeder Pentium-PC. Von zwei IC-Herstellern (ITT und Thomson) gibt es Ein-Chip-L÷sungen fⁿr die Dekomprimierung, die in entsprechender Stⁿckzahl fⁿr ca. 15$ verkauft wird.

Folgen, Utopien

Weltweit gibt es bisher 15 Hersteller, die TaschengerΣte zum Abspielen von MPEG2 Layer 3 kodierten Musikdaten anbieten. Der Speicher der GerΣte liegt zwischen 32MB und 64MB und reicht somit fⁿr 30-60min Musik in RadioqualitΣt.

Im Internet werden Dateien mit Musikstⁿcken verteilt und getauscht, die ⁿber eine Computerschnittstelle in die meisten Abspieler ⁿberspielt werden k÷nnen. Diese Entwicklung wird von den gro▀en Musikproduzenten gebremst, kann jedoch nicht gestoppt werden.

In Zukunft k÷nnte die Stellung der Produktionsfirmen ins Wanken kommen, da der Vertrieb ⁿber das Internet theoretisch direkt von den Kⁿnstlern zu den Konsumenten m÷glich ist. Neben allen damit verbundenen Ideen, Idealen und Utopien wurde jedoch nicht aufgezeigt, da▀ es neben einer Untergrundszene, die illegal Musik kopiert und tauscht, ernstzunehmende AnsΣtze fⁿr die Bedienung eines ÷ffentlichen Massenmarktes gibt.

Den einzige, von den Anwesenden abgelehnten Vorsto▀ in den elektronischen Vertrieb von Audiodaten unternimmt ein Internet-Anbieter in Deutschland: ▄ber WWW-Seiten k÷nnen Titel ausgewΣhlt und gegen eine Gebⁿhr von 0,10DM in Ausschnitten angeh÷rt werden. Wird ein Titel zum Kauf gewΣhlt, so wird die Verbindung zum Internet-Anbieter getrennt und ein Server ruft via ISDN den Kunden an und liefert die Datei aus. Die Musikdatei ist allerdings verschlⁿsselt und kann nur mit dem Programm der EmpfΣngerin geh÷rt werden. Fⁿr die private Nutzung gibt es kostenlos eine Zweitlizenz fⁿr eine zweite Installation. Bei einem Preis von 3-5 DM pro Musiktitel wird an der Akzeptanz gegenⁿber dieses Verfahrens zu Recht gezweifelt.

Einigkeit bestand in dem Punkt, da▀ Musik zu teuer ist und nicht nachvollziehbar ist, wo das Geld bleibt. Der von den Produktionsfirmen angestrebte Preis von 50,- DM pro CD dⁿrfte angesichts der aktuellen Entwicklungen jedoch nicht haltbar bleiben.

Ein philosophischer Ansatz fⁿr die freie Verfⁿgbarkeit von Musik war, da▀ sie - einmal geh÷rt - in Fragmenten im Gehirn gespeichert wird. Beim erneuten H÷ren werden lediglich Erinnerungen erneuert. Unbeantwortet blieb hierbei jedoch die Frage, warum die Dienstleistung der Auffrischung von Erinnerungen nicht vergⁿtet werden sollte.